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Procede d'analvse d'informations de frequence 
fondamentale et procede et svsteme de conversion 
de voix mettant en oeuvre un tel procede d'analvse 
La presente invention concerne un procede d'analyse d'informations 

de frequence fondamentale contenues dans des echantillons vocaux, et un pro- 
cede et un systeme de conversion de voix mettant en ceuvre ce procede d'ana- 
lyse. 

5 Suivant ia nature des sons a emettre, la production de la parole et no- 

tamment des sons voises, peut faire intervenir la vibration des cordes vocales, ce 
qui se manifeste par la presence dans le signal de parole, d'une structure perio- 
dique de periode fondamentale dont Pinverse est appele frequence fondamentale 
ou "pitch". 

10 Dans certaines applications, tels que la conversion de voix, le rendu 

auditif est primordial et pour obtenir une quaiite acceptable, il convient de bien 
maftriser les parametres lies a la prosodie et parmi ces derniers, la frequence 
fondamentale. 

Ainsi, il existe aujourd'hui de nombreux precedes d'analyse des infor- 
15 mations de frequence fondamentale contenues dans des echantillons vocaux. 

Ces analyses permettent de determiner et de modeliser des caracte- 
ristiques de la frequence fondamentale. Par exemple, il existe des precedes per- 
mettant de determinervja pentejou encore une echelle d'amplitucle de la fre- 
quence fondamentale sur Tensemble d'une base de donnees d'echantillons vo- 
20 caux. 

La connaissance de ces parametres permet d'effectuer des modifica- 
tions de signaux de parole, par exemple par des mises a Techelle de frequence 
fondamentale entre des locuteurs source et cible, de maniere a respecter globa- 
lement la moyenne et la variation de la frequence fondamentale du locuteur cible. 

25 Cependant, ces analyses ne permettent d'obtenir que des representa- 

tions globales et pas de representations parametrables de la frequence 
fondamentale et ne sont done pas pertinentes notamment pour des locuteurs 
dont les styles d'elocution sont differents. 

Le but de la presente invention est de remedier a ce probleme, en de- 

30 finissant un procede d'analyse d'informations de frequence fondamentale 
d'echantillons vocaux, permettant la definition d'une representation parametrable 
de la frequence fondamentale. 
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A cet effet, la presente invention a pour objet un procede d'analyse 
d'informations de frequence fondamentale contenues dans des echantilions vo- 
caux, caracterise en ce qu'il comporte au .moins : 

- une etape d'analyse des echantilions vocaux regroupes en trames 
5 pour obtenir, pour chaque trarne d'echantillons, des informations relatives au 

spectre et des informations relatives a la frequence fondamentale; 

- une etape de determination d'un modele representant les caracteris- 
tiques communes de spectre et de frequence fondamentale de tous les echantil- 
ions; et 

10 - une etape de determination, a partir de ce modele et des echantilions 

vocaux, d'une fonction de prediction de la frequence fondamentale en fonction 
uniquement d'informations relatives au spectre. 

Suivant d'autres caracteristiques de ce procede d'analyse : 

- ladite etape d'analyse est adaptee pour delivrer lesdites informations 
15 relatives au spectre sous la forme de coefficients cepstraux ; 

- ladite etape d'analyse comporte : 

- une sous-etape de modelisation des echantilions vocaux selon 
une somme d'un signal harmonique et d'un signal de bruit ; 

- une sous-etape d'estimation de parametres de frequence et au 
20 moins de la frequence fondamentale des echantilions vocaux ; 

- une sous-etape d'analyse synchronisee de chaque trame 
d'echantillons sur sa frequence fondamentale ; et 

- une sous-etape d'estimation des parametres de spectre de 

chaque trame d'echantillons ; 
25 - il comporte en outre une etape de normalisation de la frequence fon- 

damentale de chaque trame d'echantillons par rapport a la moyenne des fre- 
quences fondamentales des echantilions analyses ; 

- ladite etape de determination d'un modele correspond a la determi- 
nation d'un modele par melange de densites gaussiennes ; 

30 - ladite etape de determination d'un modele comprend : 

- une sous-etape de determination d'un modele correspondant a 
un melange de densites gaussiennes; et 

- une sous-etape d'estimation des parametres du melange de 
densites gaussiennes a partir de I'estimation du maximum de vraisemblance en- 
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tre les informations de spectre et de frequence fondamentale des echantillons et 
du modele ; 

- ladite etape de determination d'une fonction de prediction est realisee 
a partir d'un estimateur de la realisation de la frequence fondamentale sachant 

5 les informations de spectre des echantillons ; 

- ladite etape de determination de la fonction de prediction de la fre- 
quence fondamentale comprend une sous-etape de determination de I'esperance 
conditionnelle de la realisation de la frequence fondamentale sachant les infor- 
mations de spectre a partir de la probability a posteriori que les informations de 

10 spectre soient obtenues a partir du modele, I'esperance conditionnelle formant 
ledit estimateur. 

L'invention a egalement pour objet un procede de conversion d'un si- 
gnal vocal prononce par un locuteur source en un signal vocal converti dont les 
caracteristiques ressemblent a celles d'un locuteur cible, comportant au moins : 
15 - une etape de determination d'une fonction de transformation de ca- 

racteristiques spectrales du locuteur source en caracteristiques spectraies du 
locuteur cible, realisee a partir d'echantillons vocaux du locuteur source et du 
locuteur cible; et 

- une etape de transformation des informations de spectre du signal de 
20 voix du locuteur source a convertir a I'aide de ladite fonction de transformation, 

caracterise en ce qu'il comporte en outre : 

- une etape de determination d'une fonction de prediction de la fre- 
quence fondamentale en fonction uniquement d'informations relatives au spectre 
pour le locuteur cible, ladite fonction de prediction etant obtenue a I'aide d'un 

25 procede d'analyse tel que defini precedemment ; et 

_ une etape de prediction de la frequence fondamentale du signal de 
voix a convertir par Papplication de ladite fonction de prediction de la frequence 
fondamentale auxdites informations de spectres transformes du signal de voix du 
locuteur source. 

30 Suivant d'autres caracteristiques de ce procede de conversion : 

- ladite etape de determination d'une fonction de transformation est re- 
alisee a partir d'un estimateur de la realisation des caracteristiques spectrales 
cibles sachant les caracteristiques spectrales source ; 
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- ladite etape de determination d'une fonction de transformation com- 

porte : 

- une sous-etape de moderation des echantillons vocaux source 
et cible selon un modele de somme d'un signal harmonique et d'un signal de 

5 bruit ; 

- une sous-etape d'alignement entre les echantillons source et ci- 
ble; et 

- une sous-etape de determination de ladite fonction de transfor- 
mation a partir du caicul de I'esperance conditionnelle de la realisation des 

10 caracteristiques spectrales cibles sachant la realisation des caracterisations 
spectrales sources, i'esperance conditionnelle formant ledit estimateur. 

- ladite fonction de transformation est une fonction de transformation 
de Penveloppe spectrale ; 

- il comporte en outre une etape d'analyse du signal de voix a convertir 
15 adaptee pour delivrer lesdites informations relatives au spectre et a la frequence 

fondamentale ; 

- il comporte en outre une etape de synthese permettant de former un 
signal de voix converti a partir au moins des informations de spectre transfor- 
mees et des informations de frequence fondamentale predites. 

20 Uinvention a encore pour objet un systeme de conversion d'un signal 

vocal prononce par un locuteur source en un signal vocal converti dont les carac- 
teristiques ressemblent a celles d'un locuteur cible, systeme comportant au 
moins : 

- des moyens de determination d'une fonction de transformation de ca- 
25 racteristiques spectrales du locuteur source en caracteristiques spectrales du 

locuteur cible, recevant en entree des echantillons vocaux du locuteur source et 
du locuteur cible ; et 

- des moyens de transformation des informations de spectre du signal 
de voix du locuteur source a convertir par Papplication de ladite fonction de trans- 

30 formation delivree par les moyens, 

caracterise en ce qu'il comporte en outre : 

- des moyens de determination d'une fonction de prediction de la fre- 
quence fondamentale en fonction uniquement d'informations relatives au spectre 



WO 2004/088633 PCT/FR2OO4/OO0483 

5 

pour le locuteur cible, adaptes pour la mise en ceuvre d'un precede d'analyse, a 
partir d'echantillons vocaux du locuteur cible ; et 

- des moyens de prediction de la frequence fondamentale dudit signal 
de voix a convertir, par I'application de ladite fonction de prediction determinee 

5 par lesdits moyens de determination d'une fonction de prediction auxdites infor- 
mations de spectre transforme delivrees par lesdits moyens de transformation. 
Suivant d'autres caracteristiques de ce systeme : 

- il comporte en outre : 

- des moyens d'analyse du signal de voix a convertir, adaptes 
10 pour delivrer en sortie des informations relatives au spectre et a la frequence 

fondamentale du signal de voix a convertir ; et 

- des moyens de synthese permettant de former un signal de voix 
converti a partir au moins des informations de spectre transforme delivrees par 
les moyens et des informations de frequence fondamentale predites delivrees par 

15 les moyens; 

- lesdits moyens de determination d'une fonction de transformation 
sont adaptes pour delivrer une fonction de transformation de I'enveioppe spec- 
trale ; 

- il est adapte pour la mise en ceuvre d f un procede de conversion de 
20 voix tel que defini precedemment. 

L'invention sera mieux comprise a la lecture de la description qui va 
suivre, donnee uniquement a titre d f exemple et faite en se referant aux dessins 
annexes, sur lesquels : 

- la Fig.1 est un organigramme d'un procede d'analyse selon I'inven- 

25 tion ; 

- la Fig.2 est un organigramme d f un procede de conversion de voix 
mettant en oeuvre le procede d'analyse de I'invention ; et 

- ia Fig. 3 est un schema bloc fonctionnel d'un systeme de conversion 
de voix, permettant ia mise en ceuvre du procede de Pinvention decrit a la figure 

30 2. 

Le procede de ['invention represents sur la figure 1, est mis en ceuvre 
a partir d'une base de donnees d'echantillons vocaux contenant des sequences 
de parole naturelle. 
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Le procede debute par une etape 2 d'analyse des echantillons en les 
regroupant par trame, afin d'obtenir pour chaque trame d'echantillons, des infor- 
mations relatives au spectre et notamment a I'enveloppe spectrale et des infor- 
mations relatives a la frequence fondamentale. 
5 Dans le mode de realisation decrit, cette etape 2 d'analyse est basee 

sur I'utiiisation d'un modele d'un signal sonore sous la forme d'une somme d'un 
signal harmonique avec un signal de bruit selon un modele communement appe- 
le "HNM" (en anglais : Harmonic plus Noise Model). 

En outre, le mode de realisation decrit est fonde sur une representa- 
10 tion de I'enveloppe spectrale par le cepstre discret. 

En effet, une representation cepstrale permet de separer, dans le si- 
gnal de parole, la composante relative au conduit vocal de la composante resul- 
tant de la source, correspondant aux vibrations des cordes vocales et caracteri- 
see par la frequence fondamentale. 
15 Ainsi, I'etape 2 d'analyse comporte une sous-etape 4 de moderation 

de chaque trame de signal vocal en une partie harmonique representant la com- 
posante periodique du signal, constitute d'une somme de L sinusoTdes harmoni- 
ques d'amplitude Ai et de phase eft, et d'une partie bruitee representant le bruit de 
friction et la variation de I'excitation glottale. 
20 On peut ainsi ecrire : 

s(n)=h(n)+b(n) 

avec h(n)= ^Ai(n)cos(<j)i(n)) 

1=1 

Le terme h(n) represente done I'approximation harmonique du signal 

s(n). 

25 L'etape 2 comporte ensuite une sous-etape 5 d'estimation pour cha- 

que trame, de parametres de frequence et notamment de la frequence fonda- 
mentale, par exemple au moyen d'une methode d'autocorrelation. 

De maniere classique, cette analyse HNM delivre la frequence maxi- 
male de voisement En variante, cette frequence peut etre fixee arbitrairement ou 
30 etre estimee par d'autres moyens connus. 

Cette sous-etape 5 est suivie d'une sous-etape 6 d'analyse synchroni- 
se de chaque trame sur sa frequence fondamentale, qui permet d'estimer les 
parametres de la partie harmonique ainsi que les parametres du bruit du signal. 
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Dans le mode de realisation decrit, cette analyse synchronisee corres- 
pond a la determination des parametres des harmoniques par minimisation d'un 
critere de moindres carres ponderes entre le signal complet et sa decomposition 
harmonique correspondant dans le mode de realisation decrit, au signal de bruit 
5 estime. Le critere note E est egal a : 

Ti 

E= Jw 2 (n)(s(n)-h(n)) 2 
n=-Ti 

Dans cette equation, w (n) est la fehetre d'analyse et Tj est la periode 
fondamentale de la trame courante. 

Ainsi, la fenetre d'analyse est centree autour de la marque de la pe- 
10 riode fondamentale et a pour duree deux fois cette periode. 

L'etape 2 d'analyse comporte enfin une sous-etape 7 d'estimation des 
parametres des composantes de Penveloppe spectrale du signal en utilisant par 
exemple une methode de cepstre discret regularise et une transformation en 
echelle de Bark pour reproduire le plus fidelement possible les proprietes de 
15 I'oreille humaine. 

Ainsi, l'etape 2 d'analyse delivre, pour chaque trame de rang n 
d'echantillons de signal de parole, un scalaire note x n comprenant des informa- 
tions de frequence fondamentale et un vecteur note y n comprenant des informa- 
tions de spectre sous la forme d'une sequence de coefficients cepstraux. 
20 Avantageusement, Petape 2 d'analyse est suivie par une etape 10 de 

normalisation de la valeur de la frequence fondamentale de chaque trame par 
rapport a la frequence fondamentale moyenne afin de remplacer pour chaque 
trame d'echantillons vocaux, la valeur de la frequence fondamentale par une va- 
leur de frequence fondamentale normalisee selon la formule suivante : 

f \ 



25 Fiog = log 



Fo 



pnioy 
\ ° ) 



Dans cette formule, F m ^ y correspond a la moyenne des valeurs des 

frequences fondamentales sur toute la base de donnees analysee. 

Cette normalisation permet de modifier I'echelle des variations des 
scalaires de frequence fondamentale afin de la rendre coherente avec I'echelle 
30 des variations des coefficients cepstraux. 
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L'etape 10 de normalisation est suivie d'une etape 20 de determination 
d'un modele representant les caracteristiques communes de cepstre et de fre- 
quence fondamentale de tous les echantillons analyses. 

Dans le mode de realisation decrit, il s'agit d'un modele probabiliste de 
5 la frequence fondamentale et du cepstre discret, selon un modele de melange de 
densites gaussiennes couramment note "GMM", dont les parametres sont esti- 
mes a partir de la densite jointe de la frequence fondamentale normalisee et du 
cepstre discret. 

De maniere classique, la densite de probabilite d'une variable aleatoire 
10 notee de maniere generale p(z), suivant un modele de melange de densites 
gaussiennes GMM s'ecrit mathematiquement de la maniere suivante : 



Q 

p(z)= y]ai=N(z,!ii,2i) 

i=l 



avec ^<*t,= 1 > o<ai<1 

i=l 

Dans cette formule, N(z ; p-, ; Ej) est la densite de probabilite de la loi 
15 normale de moyenne pi et de matrice de covariance S| et les coefficients a, sont 
les coefficients du melange. 

Ainsi, le coefficient ccj correspond a la probabilite a priori que la varia- 
ble aleatoire z soit generee par la f me gaussienne du melange. 

De maniere plus particuliere, l'etape 20 de determination du modele 
20 comporte une sous-etape 22 de modelisation de la densite jointe entre le cepstre 
note y et la frequence fondamentale normalisee notee x, de sorte que : 

P(z) = P(y.x), ou z = { £ 



J 



Dans ces equations, x = [xi, X2, ... xn] correspond a la sequence des 
25 scalaires contenant les informations de frequence fondamentale normalisee pour 
N frames d'echantillons vocaux et y = [y 1f y 2 ,... Yn], correspond a la sequence 
des vecteurs de coefficients cepstraux correspondants. 

L'etape 20 comporte ensuite une sous-etape 24 d'estimation de para- 
metres GMM (a, p, E) de la densite p(z). Cette estimation peut etre realisee, par 
30 exemple, a Paide d'un algorithme classique de type dit "EM" (Expectation - 
Maximisation), correspondent a une methode iterative conduisant a Tobtention 
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d'un estimateur de maximum de vraisemblance entre les donnees des echantil- 
lons de parole et le modele de melange de gaussienne. 

La determination des parametres initiaux du modele GMM est obtenue 
a I'aide d'une technique classique de quantification vectorielle. 

L'etape 20 de determination de modele delivre ainsi les parametres 
d'un melange de densites gaussiennes representatifs des caracteristiques com- 
munes des spectres, representees par les coefficients cepstraux, et des frequen- 
ces fondamentales des echantillons vocaux analyses. 

Le procede comporte ensuite une etape 30 de determination, a partir 
du modele et des echantillons vocaux, d'une fonction de prediction de la fre- 
quence fondamentale en fonction uniquement d'informations de spectre fournies 
par le cepstre du signal. 

Cette fonction de prediction est determinee a partir d'un estimateur de 
la realisation de la frequence fondamentale etant donne le cepstre des echantil- 
lons vocaux, forme dans le mode de realisation decrit, par I'esperance condition- 
nelle. 

Pour cela, l'etape 30 comporte une sous-etape 32 de determination de 
I'esperance conditionnelle de la frequence fondamentale sachant les informations 
relatives au spectre fournies par le cepstre. L'esperance conditionnelle est notee 
F(y) et est determinee a partir des formules suivantes : 

Q 



F(y)=E[x ! y]= J>(y)[n* '"^ T> ] 



avec 



P.(y)= 



avec 



i i 

l i 



et ju\= 



« x i 
y 

I 



Dans ces equations, P*(y) correspond a la probability a posteriori que 
le vecteur y de cepstre soit genere par la i eme composante du melange de gaus- 
siennes du modele, defini lors de l'etape 20 par la matrice de covariance Ej et la 
loi normale pi. 
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La determination de I'esperance conditionnelle permet ainsi d'obtenir 
la fonction de prediction de la frequence fondamentale a partir des informations 
de cepstre. 

En variante, I'estimateur mis en ceuvre (ors de I'etape 30 peut etre un 
5 critere de maximum a posteriori, dit "MAP" et correspondant a la realisation du 
calcul de I'esperance uniquement pour le modele representant le mieux le vec- 
teur source. 

II apparait done que le procede d'analyse de I'invention permet, a partir 
du modele et des echantillons vocaux, d'obtenir une fonction de prediction de la 
10 frequence fondamentale en fonction uniquement d'informations de spectre four- 
nies, dans le mode de realisation decrit, par le cepstre. 

Une telle fonction de prediction permet ensuite de determiner la valeur 
de la frequence fondamentale pour un signal de parole, uniquement a partir d'in- 
formations de spectre de ce signal, permettant ainsi une prediction pertinente de 
15 la frequence fondamentale notamment pour des sons qui ne sont pas dans les 
echantillons vocaux analyses. 

En reference a la figure 2, on va maintenant decrire ('utilisation d'un 
procede d'analyse selon Pinvention dans le cadre de la conversion de voix. 

La conversion de voix consiste a modifier le signal vocal d'un locuteur 
20 de reference appele " locuteur source " de fagon que le signal produit semble 
avoir ete prononce par un autre locuteur nomme " locuteur cible". 

Ce procede est mis en oeuvre a partir d'une base de donnees 
d'echantillons vocaux prononces par le locuteur source et le locuteur cible. 

De maniere classique, un tel procede comporte une etape 50 de de- 
25 termination d'une fonction de transformation des caracteristiques spectrales des 
echantillons vocaux du locuteur source pour les faire ressembler aux caracteristi- 
ques spectrales des echantillons vocaux du locuteur cible. 

Dans le mode de realisation decrit, cette etape 50 est basee sur une 
analyse de type HNM permettant de determiner les relations existantes entre les 
30 caracteristiques de I'enveloppe spectrale des signaux de parole des locuteurs 
source et cible. 

Pour cela, il est necessaire de disposer d'enregistrements vocaux 
source et cible correspondant a la realisation acoustique de la meme sequence 
phonetique. 
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L'etape 50 comporte une sous-etape 52 de modelisation des echantil- 
Ions vocaux selon un modele HNM, de somme de signaux harmoniques et de 
bruit. 

La sous-etape 52 est suivie d'une sous-etape 54 d'alignement entre 
les signaux source et cible a I'aide par exemple d'un algorithme classique d'aii- 
gnement dit "DTW" (en anglais " Dynamic Time Warping"). 

L'etape 50 comporte ensuite une sous-etape 56 de determination d'un 
modele tel qu'un modele de type GMM representant les caracteristiques commu- 
nes des spectres des echantillons vocaux des locuteurs source et cible. 

Dans le mode de realisation decrit, on utilise un modele GMM a 64 
composantes et un unique vecteur contenant les parametres cepstraux de la 
source et de la cible, de sorte que I'on peut definir une fonction de transformation 
spectrale correspondant a un estimateur de la realisation des parametres spec- 
traux de cible notes t, sachant les parametres spectraux de source notes s. 

Dans le mode de realisation decrit, cette fonction de transformation no- 
tee F(s) se note sous la forme d'une esperance conditionnelle obtenue par la 
formule suivante : 



F(s)=E[t | s]= XR(s)[^+2 t f (Sf) - 1 (s- M f)] 

i=l 



avec 



Pi(s)= 



s ss 
i i 



Q 



ss 



avec 



* • 

i i 

ts tt 

• • 

i i 



et fi\= 



La determination precise de cette fonction est obtenue par la maximi- 
sation de la vraisemblance entre les parametres de la source et de la cible, obte- 
nue par un algorithme de type EM. 

En variante, I'estimateur peut etre forme d'un critere de maximum a 

posteriori. 

La fonction ainsi definie permet done de modifier Tenveloppe spectrale 
d'un signal de parole issue du locuteur source afin de la faire ressembler a I'enve- 
loppe spectrale du locuteur cible. 
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Prealablement a cette maximisation, les parametres du modele GMM 
representant les caracteristiques spectrales communes de la source et de la cible 
sont initialises, par exemple, a Paide d'un algorithme de quantification vectorielle. 

Parallelement, le procede d'analyse de Pinvention est mis en oeuvre 
5 lors d'une etape 60 d'analyse des seuls echantillons vocaux du locuteur cible. 

Ainsi que cela a ete decrit a la reference a la figure 1 , I'etape 60 d'ana- 
lyse selon invention permet d'obtenir, pour le locuteur cible, une fonction de pre- 
diction de la frequence fondamentale en fonction uniquement d'informations de 
spectres. 

10 Le procede de conversion comporte ensuite une etape 65 d'analyse 

d'un signal de voix a convertir prononce par le locuteur source, lequel signal a 
convertir est different des signaux vocaux utilises lors des etapes 50 et 60. 

Cette etape d'analyse 65 est realisee, par exemple, a I'aide d'une de- 
composition selon le modele HNM permettant de delivrer des informations de 

15 spectre sous la forme de coefficients cepstraux, des informations de frequence 
fondamentale ainsi que des informations de phase et de frequence maximale de 
voisement. 

Cette etape 65 est suivie d'une etape 70 de transformation des carac- 
teristiques spectrales du signal de voix a convertir par Papplication de la fonction 
20 de transformation determinee a I'etape 50, aux coefficients cepstraux definis lors 
de I'etape 65. 

Cette etape 70 permet notamment la modification de Penveloppe spec- 
trale du signal de voix a convertir. 

A Tissue de I'etape 70, chaque trame d'echantillons du signal a conver- 
25 tir du locuteur source est ainsi associee a des informations spectrales transfor- 
mees dont les caracteristiques sont similaires aux caracteristiques spectrales des 
echantillons du locuteur cible. 

Le procede de conversion comporte ensuite une etape 80 de predic- 
tion de la frequence fondamentale pour les echantillons vocaux du locuteur 
30 source, par ('application de la fonction de prediction determinee selon le procede 
de Pinvention lors de Petape 60, aux seules informations spectrales transformees 
associees au signal de voix a convertir du locuteur source. 

En effet, les echantillons vocaux du locuteur source etant associes a 
des informations spectrales transformees dont les caracteristiques sont similaires 
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a celles du locuteur cible, la fonction de prediction definie lors de I'etape 60 per- 
met d'obtenir une prediction pertinente de ia frequence fondamentale. 

De maniere classique, le precede de conversion comporte ensuite une 
etape 90 de synthese du signal de sortie realisee, dans Fexernple decrit, par une 
5 synthese de type HNM qui delivre directement le signal de voix convert! a partir 
des informations d'enveloppe spectrale transformees delivrees par I'etape 70, 
des informations de frequence fondamentale predites issues de I'etape 80 et des 
informations de phase et de frequence maximale de voisement delivrees par 
I'etape 65. 

10 Le procede de conversion mettant en oeuvre le procede d'analyse de 

Pinvention, permet ainsi d f obtenir une conversion de voix realisant des modifica- 
tions de spectres ainsi qu'une prediction de frequence fondamentale, de maniere 
a obtenir un rendu auditif de bonne qualite. 

Notamment, I'efficacite d ! un tel procede peut etre evaluee a partir 

15 d'echantillons vocaux identiques prononces par le locuteur source et le locuteur 
cible. 

Le signal vocal prononce par le locuteur source est converti a I'aide du 
procede tel que decrit et la ressemblance du signal converti avec le signal pro- 
nonce par le locuteur cible, est evaluee. 
20 Par exemple, cette ressemblance est calculee sous la forme d'un ratio 

entre la distance acoustique separant le signal converti du signal cible et la dis- 
tance acoustique separant le signal cible du signal source. 

En calculant ia distance acoustique a partir des coefficients cepstraux 
ou du spectre d'amplitude des signaux obtenu a raide.de ces coefficients ceps- 
25 traux, le ratio obtenu pour un signal converti a I'aide du procede de Pinvention est 
de I'ordre de 0,3 a 0,5. 

Sqr la figure 3, on a represents un schema bloc fonctionnel d'un sys- 
teme de conversion des voix mettant en ceuvre le procede decrit en reference a 
la figure 2. 

30 Ce systeme utilise en entree une base de donnees 100 d'echantillons 

vocaux prononces par ie locuteur source et une base de donnees 102 contenant 
au moins les memes echantillons vocaux prononces par le locuteur cible. 
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Ces deux bases de donnees sont utilisees par un module 104 de de- 
termination d'une fonction de transformation de caracteristiques spectrales du 
iocuteur source en caracteristiques spectrales du locuteur cible. 

Ce module 104 est adapte pour la mise en ceuvre de Petape 50 du 
5 procede tel que decrit en reference a la figure 2 et permet done la determination 
- d'une fonction de transformation de Penveloppe spectrale. 

Par ailleurs, le systeme comporte un module 106 de determination 
d'une fonction de prediction de la frequence fondamentale en fonction unique- 
ment d'informations relatives au spectre. Le module 106 regoit pour ceia en en- 
10 tree les echantillons vocaux du seul locuteur cible, contenus dans la base de 
donnees 102. 

Le module 106 est adapte pour la mise en oeuvre de Petape 60 du 
procede decrit en reference a la figure 2 et correspondent au procede d'analyse 
de invention tel que decrit en reference a la figure 1 . 
1 5 Avantageusement, la fonction de transformation delivree par le module 

104 et la fonction de prediction delivree par le module 106, sont memorisees en 
vue d'une utilisation ulterieure. 

Le systeme de conversion de voix regoit en entree un signal de voix 
110 correspondant a un signal de parole prononce par le locuteur source et des- 
20 tine a etre converti. 

Le signal 110 est introduit dans un module 112 d'analyse du signal, 
mettant en oeuvre, par exemple, une decomposition de type HNM et permettant 
de dissocier des informations de spectre du signal 110 sous la forme de coeffi- 
cients cepstraux et d'informations de frequence fondamentale. Le module 112 
25 delivre egalement des informations de phase et de frequence maximale de voi- 
sement obtenues par I'application du modele HNM. 

Le module 112 met done en ceuvre Petape 65 du procede decrit pre- 
cedemment. 

Eventuellement cette analyse peut etre faite au prealable et les infor- 
30 mations sont stockees pour etre utilisees ulterieurement. 

Les coefficients cepstraux delivr^s par le module 112, sont ensuite in- 
troduits dans un module 114 de transformation adapte pour appliquer la fonction 
de transformation determinee par le module 104. 
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Ainsi, le module 114 de transformation met en oeuvre I'etape 70 du 
procede decrit en reference a la figure 2 et delivre des coefficients cepstraux 
transformes dont les caracteristiques sont similaires aux caracteristiques spectra- 
les du iocuteur cible. 

5 Le module 114 realise ainsi une modification de I'enveloppe spectrale 

du signal de voix 110. 

Les coefficients cepstraux" transformes delivres par le module 114, 
■ sont ensuite introduits dans un module 116 de prediction de la frequence fonda- 
mentale adaptes pour mettre en oeuvre la fonction de prediction determinee par 
10 le module 106. 

Ainsi, le module 116 met en oeuvre I'etape 80 du procede decrit en re- 
ference a la figure 2 et delivre en sortie des informations de frequence fondamen- 
tale predites a partir uniquement des informations de spectre transformers. 

Le systeme comporte ensuite un module 118 de synthese recevant en 
15 entree les coefficients cepstraux transformes issus du module 1 14 et correspon- 
dent a I'enveloppe spectrale, les informations de frequence fondamentaie predi- 
tes issues du module 116, et les informations de phase et de frequence maxi- 
male de voisement delivrees par le module 112. 

Le module 118 met ainsi en oeuvre I'etape 90 du procede decrit en re- 
20 ference a la figure 2 et delivre un signal 120 correspondent au signal de voix 110 
du Iocuteur source, mais dont les caracteristiques de spectre et de frequence 
fondamentaie ont ete modifiees afin d'etre similaires a celles du Iocuteur cible. 

Le systeme decrit peut etre mis en oeuvre de diverses manieres et no- 
tamment a I'aide d'un programme informatique adapte et relie a des moyens ma- 
25 teriels d'acquisition sonore. 

Bien entendu, d'autres modes de realisation que celui decrit peuvent 
etre envisages. 

Notamment, les modeles HNM et GMM peuvent etre remplaces par 
d'autres techniques et modeles connus de Thomme de Tart, tels que par exemple 
30 les techniques dites LSF (Line Spectral Frequencies), LPC (Linear Predictif Co- 
ding) ou encore des parametres relatifs aux formants. 
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REVENDICATIONS 

1. Procede d'analyse d'informations de frequence fondamentale 
contenues dans des echantillons vocaux, caracterise en ce qu'il comporte au 
moins : 

5 - une etape (2) d'analyse des echantillons vocaux regroupes en tra- 

mes pourobtenir, pourchaque trame d'echantillons, des informations relatives au 
spectre et des informations relatives a la frequence fondamentale; 

- une etape (20) de determination d'un modele representantOe^)carac- 
teristiques communes de spectre et de frequence fondamentale de tous les 

10 echantillons; et 

- une etape (30) de determination, a partir de ce modele et des echan- 
tillons vocaux, d'une fonction de prediction de la frequence fondamentale en 
fonction uniquement d'informations relatives au spectre. 

2. Procede selon la revendication 1 , caracterise en ce que ladite etape 
15 (2) d'analyse est adaptee pour delivrer lesdites informations relatives au spectre 

sous la forme de coefficients cepstraux. 

3. Procede selon Tune quelconque des revendications 1 ou 2, caracte- 
rise en ce que ladite etape d'analyse (2) comporte : 

- une sous-etape (4) de modelisation des echantillons vocaux selon 
20 une somme d'un signal harmonique et d ! un signal de bruit ; 

- une sous-etape (5) d'estimation de parametres de frequence et au 
moins de la frequence fondamentale des echantillons vocaux; 

- une sous-etape (6) d'analyse synchronisee de chaque trame 
d'echantillons sur sa frequence fondamentale; et 

25 - une sous-etape (7) d'estimation des parametres de spectre de cha- 

que trame d'echantillons. 

4. Procede selon Tune quelconque des revendications 1 a 3, caracteri- 
se en ce qu'il comporte en outre une etape (10) de normalisation de la frequence 
fondamentale de chaque trame d'echantillons par rapport a la moyenne des fre- 

30 quences fondamentales des echantillons analyses. 

5. Procede selon Tune quelconque des revendications 1 a 4, caracteri- 
se en ce que ladite etape (20) de determination d'un modele correspond a la de- 
termination d'un modele par melange de densites gaussiennes. 
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6. Procede selon la revendication 5, caracterise en ce que iadite etape 
de determination (20) d'un modele comprend : 

- une sous-etape (22) de determination d'un modele correspondant a 
un melange de densites gaussiennes; et 

5 - une sous-etape (24) d'estimation des parametres du melange de 

densites gaussiennes a partir de Pestimation du maximum de vraisemblance en- 
tre les informations de spectre et de frequence fondamentale des echantillons et 
du modele. 

7. Procede selon Tune quelconque des revendications 1 a 6, caracteri- 
10 se en ce que Iadite etape (30) de determination d'une fonction de prediction est 

reaiisee a partir d'un estimateur de la realisation de la frequence fondamentale 
sachant les informations de spectre des echantillons. 

8. Procede selon la revendication 7, caracterise en ce que Iadite etape 
(30) de determination de la fonction de prediction de la frequence fondamentale 

15 comprend une sous-etape (32) de determination de Pesperance conditionnelle de 
la realisation de la frequence fondamentale sachant les informations de spectre a 
partir de la probability a posteriori que les informations de spectre soient obte- 
nues a partir du modele, Pesperance conditionnelle formant ledit estimateur. 

9. Procede de conversion d'un signal vocal prononce par un locuteur 
20 source en un signal vocal convert! dont les caracteristiques ressemblent a celles 

d'un locuteur cibie, comportant au moins : 

- une etape (50) de determination d'une fonction de transformation de 
caracteristiques spectrales du locuteur source en caracteristiques spectrales du 
locuteur cible, reaiisee a partir d'echantillons vocaux du locuteur source et du 

25 locuteur cible; et 

- une etape (70) de transformation des informations de spectre du si- 
gnal de voix du locuteur source a convertir a Paide de Iadite fonction de transfor- 
mation, 

caracterise en ce qu'il comporte en outre : 
30 - une etape (60) de determination d'une fonction de prediction de la 

frequence fondamentale en fonction uniquement deformations relatives au spec- 
tre pour le locuteur cible, Iadite fonction de prediction etant obtenue a Paide d'un 
procede d'analyse selon Pune quelconque des revendications 1 a 8; et 
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- une etape (80) de prediction de la frequence fondamentale du signal 
de voix a convertir par I'application de ladite fonction de prediction de la fre- 
quence fondamentale auxdites informations de spectres transformes du signal de 
voix du locuteur source. 

5 10. Procede selon la revendication 9, caracterise en ce que ladite 

etape (50) de determination d ! une fonction de transformation est reaiisee a partir 
d'un estimateur de la realisation des caracteristiques spectrales cibles sachant 
les caracteristiques spectrales source. 

11. Procede selon la revendication 10, caracterise en ce que ladite 
10 etape (50) de determination d'une fonction de transformation comporte : 

- une sous-etape (52) de modelisation des echantillons vocaux source 
et cible selon un modele de somme d'un signal harmonique et d'un signal de 
bruit ; 

- une sous-etape (54) d'alignement entre les echantillons source et ci- 

1 5 ble; et 

- une sous-etape (56) de determination de ladite fonction de transfor- 
mation a partir du calcul de I'esperance conditionnelle de la realisation des carac- 
teristiques spectrales cibles sachant la realisation des caracterisations spectrales 
sources, I'esperance conditionnelle formant ledit estimateur. 

20 12. Procede selon Tune quelconque des revendications 9 a 11, carac- 

terise en ce que ladite fonction de transformation est une fonction de transforma- 
tion de I'enveloppe spectrale. 

13. Procede selon Tune quelconque des revendications 9 a 12, carac- 
terise en ce qu'il comporte en outre une etape (65) d'analyse du signal de voix a 

25 convertir adaptee pour delivrer lesdites informations relatives au spectre et a la 
frequence fondamentale. 

14. Procede selon Tune quelconque des revendications 9 a 13, carac- 
terise en ce qu'il comporte en outre une etape (90) de synthese permettant de 
former un signal de voix convert! au moins a partir des informations de spectre 

30 transformees et des informations de frequence fondamentale predites. 

15. Systeme de conversion d'un signal vocal (110) prononce par un 
locuteur source en un signal vocal (120) converti dont les caracteristiques res- 
semblent a celles d'un locuteur cible, systeme comportant au moins : 
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- des moyens (104) de determination d'une fonction de transformation 
de caracteristiques spectrales du iocuteur source en caracteristiques spectrales 
du Iocuteur cible, recevant en entree des echantillons vocaux du Iocuteur source 
(1 00) et du Iocuteur cible (1 02) ; et 

5 - des moyens (114) de transformation des informations de spectre du 

signal de voix (110) du Iocuteur source a convertir par Papplication de ladite fonc- 
tion de transformation delivree par les moyens (104), 
caracterise en ce qu'il comporte en outre : . 

- des moyens (106) de determination d'une fonction de prediction de la 
10 frequence fondamentale en fonction uniquement d'informations relatives au spec- 
tre pour le Iocuteur cible, adaptes pour la mise en oeuvre d'un procede d'analyse 
selon Tune quelconque des revendications 1 a 8, a partir d'echantillons vocaux 
(102) du Iocuteur cible ; et 

- des moyens (116) de prediction de la frequence fondamentale dudit 
15 signal de voix a convertir (110), par Papplication de ladite fonction de prediction 

determinee par lesdits moyens (106) de determination d'une fonction de predic- 
tion auxdites informations de spectre transforms deiivrees par lesdits moyens de 
transformation (1 14). 

16. Systeme selon la revendication 15, caracterise en ce qu'il com- 
20 porte en outre : 

- des moyens (112) d'analyse du signal de voix a convertir (110), 
adaptes pour delivrer en sortie des informations relatives au spectre et a la fre- 
quence fondamentale du signal de voix a convertir ; et 

- des moyens (118) de synthese permettant de former un signal de 
25 voix convert! a partir au moins des informations de spectre transforms deiivrees 

par les moyens (114) et des informations de frequence fondamentale predites 
deiivrees par les moyens (1 1 6). 

17. Systeme selon Tune quelconque des revendications 15 et 16, ca- 
racterise en ce que lesdits moyens (104) de determination d'une fonction de 

30 transformation sont adaptes pour delivrer une fonction de transformation de I'en- 
veloppe spectrale. 

18. Systeme selon Tune quelconque des revendications 15 a 17, ca- 
racterise en ce qu'il est adapte pour la mise en oeuvre d'un procede de conver- 
sion de voix selon I'une quelconque des revendications 9 a 12. 
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- des moyens (104) de determination d'une fonction de transformation 
de caracteristiques spectrales du locuteur source en caracteristiques spectrales 
du locuteur cibie, recevant en entree des echantillons vocaux du locuteur source 
(100) et du locuteur cible (102) ; et 

5 - des moyens (114) de transformation des informations de spectre du 

signal de voix (110) du locuteur source a convertir par ('application de ladite fonc- 
tion de transformation delivree par les moyens (1 04), 
caracterise en ce qu'il comporte en outre : 

- des moyens (106) de determination d'une fonction de prediction de la 
10 frequence fondamentale en fonction uniquement d'informations relatives au spec- 
tre pour le locuteur cible, adaptes pour la mise en ceuvre d'un procede d'analyse 
selon Tune quelconque des revendications 1 a 8, a partir d'echantillons vocaux 
(102) du locuteur cible ; et 

- des moyens (116) de prediction de la frequence fondamentale dudit 
15 signal de voix a convertir (110), par ['application de ladite fonction de prediction 

determinee par lesdits moyens (106) de determination d'une fonction de predic- 
tion auxdites informations de spectre transforms delivrees par lesdits moyens de 
transformation (114). 

16. Systeme selon la revendication 15, caracterise en ce qu'il com- 
20 porte en outre : 

- des moyens (112) d'analyse du signal de voix a convertir (110), 
adaptes pour delivrer en sortie des informations relatives au spectre et a la fre- 
quence fondamentale du signal de voix a convertir ; et 

- des moyens (118) de synthese permettant de former un signal de 
25 voix convert! a partir au moins des informations de spectre transformer delivrees 

par les moyens (114) et des informations de frequence fondamentale predites 
delivrees par les moyens (116). 

17. Systeme selon Tune quelconque des revendications 15 et 16, ca- 
racterise en ce que lesdits moyens (104) de determination d'une fonction de 

30 transformation sont adaptes pour delivrer une fonction de transformation de Pen- 
veloppe spectrale. 

18. Systeme selon Tune quelconque des revendications 15 a 17, ca- 
racterise en ce qu'il est adapte pour la mise en oeuvre d'un procede de conver- 
sion de voix selon Tune quelconque des revendications 9 a 12. 
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